我们调查了半个空间自训算法的泛化特性。该方法从标记和未标记的培训数据中迭代地了解半个空间列表,其中每个迭代包括两个步骤:探索和修剪。在探索阶段中,通过在未标记的示例中最大化未符号余量,然后将伪标签分配给具有高于当前阈值的距离的距离来顺序地找到半空间。然后将伪标记的示例添加到训练集中,并且学习了一个新的分类器。重复该过程,直到不再是未标记的示例仍然用于伪标记。在修剪阶段,然后丢弃与距离相关的未签名边缘大于相关的余量的距离的伪标记的样本。我们证明了由此产生的分类序列的错误分类误差被界定,并表明由此产生的半导体方法与仅使用初始标记的训练集学习的分类器相比,从未降低性能。与最先进的方法相比,在各种基准上进行的实验证明了所提出的方法的效率。
translated by 谷歌翻译